Yannick Rochat
29 mars 2018
ggplot2 met en pratique la grammaire des graphiques, une théorie de Leland Wilkinson (1999).
if (!require(ggplot2)) install.packages("ggplot2")## Loading required package: ggplot2
library(ggplot2)
if (!require(RColorBrewer)) install.packages("RColorBrewer")## Loading required package: RColorBrewer
library(RColorBrewer)Nous utilisons un jeu de données interne à ggplot2 contenant le prix ainsi que d’autres attributs de 53 940 diamants.
Les commandes suivantes permettent de prendre connaissance du jeu de données.
## help(diamonds)
## View(diamonds)head(diamonds)## # A tibble: 6 x 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.20 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
str(diamonds)## Classes 'tbl_df', 'tbl' and 'data.frame': 53940 obs. of 10 variables:
## $ carat : num 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
On ne va pas garder l’entier du tableau de données, mais seulement un échantillon, afin de ne pas surcharger ce notebook.
diam <- diamonds[sample(1:nrow(diamonds), 1000),]Remarque : à partir d’ici, nous parlons principalement de ggplot sans le “2” car il va s’agir de la fonction “ggplot”.
Le “2” n’est utilisé que dans le nom du package.
ggplot1 existe.
Attention ! L’input doit toujours être un data frame !
g <- ggplot(diam)gContrairement à la fonction plot, qui bricole un visuel lorsqu’on entre la commande plot(diamonds), avec ggplot il ne se passe rien.
Juste un grand carré gris.
Le résultat avec le package base.
## plot(diamonds)La commande de base plot(diamonds) considère toutes les variables du data frame et les croise entre elles - numériques comme ordinales - pour un résultat illisible et inutile.
Qu’obtient-on avec la commande ggplot ?
str(g)## List of 9
## $ data :Classes 'tbl_df', 'tbl' and 'data.frame': 1000 obs. of 10 variables:
## ..$ carat : num [1:1000] 0.4 1.31 0.23 0.53 0.7 2.04 0.92 0.31 0.61 0.55 ...
## ..$ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 4 5 5 5 5 5 4 5 3 5 ...
## ..$ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 3 4 3 4 1 5 1 5 4 2 ...
## ..$ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 5 6 7 5 6 2 2 3 7 5 ...
## ..$ depth : num [1:1000] 62.4 60.9 62.4 62.7 61.1 62 62.4 61.3 61.1 62 ...
## ..$ table : num [1:1000] 59 56 55 55 55 56 60 55 56 56 ...
## ..$ price : int [1:1000] 1050 11531 505 1813 5539 16319 4096 421 2569 2107 ...
## ..$ x : num [1:1000] 4.69 7.17 3.94 5.18 5.75 8.18 6.25 4.35 5.47 5.27 ...
## ..$ y : num [1:1000] 4.67 7.07 3.95 5.16 5.78 8.23 6.21 4.39 5.5 5.24 ...
## ..$ z : num [1:1000] 2.92 4.32 2.46 3.24 3.52 5.09 3.89 2.68 3.35 3.26 ...
## $ layers : list()
## $ scales :Classes 'ScalesList', 'ggproto' <ggproto object: Class ScalesList>
## add: function
## clone: function
## find: function
## get_scales: function
## has_scale: function
## input: function
## n: function
## non_position_scales: function
## scales: NULL
## super: <ggproto object: Class ScalesList>
## $ mapping : list()
## $ theme : list()
## $ coordinates:Classes 'CoordCartesian', 'Coord', 'ggproto' <ggproto object: Class CoordCartesian, Coord>
## aspect: function
## distance: function
## expand: TRUE
## is_linear: function
## labels: function
## limits: list
## range: function
## render_axis_h: function
## render_axis_v: function
## render_bg: function
## render_fg: function
## train: function
## transform: function
## super: <ggproto object: Class CoordCartesian, Coord>
## $ facet :Classes 'FacetNull', 'Facet', 'ggproto' <ggproto object: Class FacetNull, Facet>
## compute_layout: function
## draw_back: function
## draw_front: function
## draw_labels: function
## draw_panels: function
## finish_data: function
## init_scales: function
## map: function
## map_data: function
## params: list
## render_back: function
## render_front: function
## render_panels: function
## setup_data: function
## setup_params: function
## shrink: TRUE
## train: function
## train_positions: function
## train_scales: function
## vars: function
## super: <ggproto object: Class FacetNull, Facet>
## $ plot_env :<environment: R_GlobalEnv>
## $ labels : list()
## - attr(*, "class")= chr [1:2] "gg" "ggplot"
On retrouve le data frame contenant nos données, ainsi que les différents éléments propres à l’approche grammaticale des graphiques proposée par ggplot2, pour l’instant vides :
layers
scales
mapping
theme
coordinates
facet
À ce stade, le graphe est vide car nous n’avons défini ni mapping ni géométries (voir figure suivante).
g <- ggplot(diam)
gcf. figure suivante.
Pour rappel : ‘carat’ et ‘price’ sont des variables continues.
ggplot(diam, aes(x = carat, y = price)) On remarque que les échelles et les labels des axes sont déjà posés.
ggplot attend maintenant de savoir quoi dessiner.
Pas de figure…
ggplot(diam) + geom_point()## Error: geom_point requires the following missing aesthetics: x, y
Cette fois, ggplot n’a pas trouvé de mapping lui indiquant où poser son dessin, d’où l’erreur.
ggplot(diam, aes(x = carat, y = price)) + geom_point()Pour comparaison, la commande la plus simple permettant d’obtenir (à peu près) le même résultat avec le package de base.
plot(diam$carat, diam$price)Les échelles sont justes et les points sont bien situés, mais c’est tout et c’est moche.
C’est là le principe de ggplot : à partir de maintenant nous pouvons faire varier les éléments graphiques sans avoir à toucher aux données.
Par exemple, une interpolation.
ggplot(diam, aes(x = carat, y = price)) + geom_smooth()## `geom_smooth()` using method = 'gam'
Il suffit de les additionner pour les superposer.
Attention au ‘+’ à mettre à la fin de la ligne et pas au début.
ggplot(diam, aes(x = carat, y = price)) +
geom_point() +
geom_smooth()## `geom_smooth()` using method = 'gam'
Attention, l’ordre des géométries a une influence sur le graphique !
ggplot(diam, aes(x = carat, y = price)) +
geom_smooth() +
geom_point()## `geom_smooth()` using method = 'gam'
Dans le graphique précédent, la courbe d’interpolation a été dessinée avant les points.
Ainsi, elle apparaît dans la figure cachée sous ces derniers.
Le mapping peut se faire à plusieurs endroits :
Dans ggplot(), ce qui a pour effet d’appliquer le mapping à tous les autres éléments.
Dans les éléments graphiques eux-mêmes.
ggplot(diam, aes(x = carat, y = price)) + geom_point()ggplot(diam, aes(x = carat)) + geom_point(aes(y = price))ggplot(diam) + geom_point(aes(x = carat, y = price))Bref, on peut mapper de nombreuses variables, en une seule fois, directement dans ggplot et elles seront reprises par les autres éléments.
Par exemple, l’attribut color de geom_point.
Remarque : la variable ‘clarity’ est ordinale.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point()Grâce à ce seul mapping, ggplot attribue à chaque modalité une couleur, attribue aux points la couleur correspondante, et génère dans la foulée une légende (une des angoisses lorsqu’on travaille avec les commandes de base).
Pour l’anecdote, nous aurions obtenu le même résultat en faisant le mapping dans geom_point.
ggplot(diam, aes(x = carat, y = price)) +
geom_point(aes(color = clarity))Attention à ne pas oublier de faire le mapping, c’est-à-dire d’utiliser la fonction aes(), sinon ça ne fonctionnera pas !
ggplot(diam, aes(x = carat, y = price)) +
geom_point(color = clarity)## Error in layer(data = data, mapping = mapping, stat = stat, geom = GeomPoint, : object 'clarity' not found
On trouve toutes les géométries disponibles ainsi que de nombreuses autres ressources indispensables dans l’indispensable cheat sheet de ggplot2 !
C’est hasardeux, mais on peut également appliquer une transformation continue (size) à une variable ordinale (cut).
ggplot(diam, aes(x = carat, y = price, color = clarity, size = cut)) +
geom_point()## Warning: Using size for a discrete variable is not advised.
Toutefois, il est recommandé d’appliquer une transformation continue (size) à une variable continue (par exemple depth) et une transformation discrète comme la couleur ou la forme (shape) à une variable discrète (par exemple cut).
ggplot(diam, aes(x = carat, y = price, color = clarity, shape = cut)) +
geom_point()Détail qui a son importance dans l’exemple suivant : la fonction geom_smooth va hériter du mapping sur la couleur.
Note : “se = FALSE” empêche l’affichage de l’incertitude.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
geom_smooth(se = FALSE)## `geom_smooth()` using method = 'loess'
Pour le mapping sur la forme (au lieu de la couleur), on repassera.
ggplot(diam, aes(x = carat, y = price, shape = cut)) +
geom_point() +
geom_smooth(se = FALSE)## `geom_smooth()` using method = 'loess'
Et si l’on prend en considération les deux en même temps, ça peut mener à la catastrophe.
ggplot(diam, aes(x = carat, y = price, color = clarity, shape = cut)) +
geom_point() +
geom_smooth(se = FALSE)## `geom_smooth()` using method = 'loess'
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 1.4034
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.09655
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 1.6296
## Warning in sqrt(sum.squares/one.delta): NaNs produced
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 0.89605
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.27395
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 0.2851
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 0.95865
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.06135
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 0.044669
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 0.3065
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.4035
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 0.092112
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : Chernobyl! trL>n 5
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : Chernobyl! trL>n 5
## Warning in sqrt(sum.squares/one.delta): NaNs produced
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 0.294
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.456
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 0.58676
## Warning in sqrt(sum.squares/one.delta): NaNs produced
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : at 0.89685
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : radius 9.9225e-06
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : all data on boundary of neighborhood. make span bigger
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 0.89685
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.00315
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 1
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : at 1.5332
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : radius 9.9225e-06
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : all data on boundary of neighborhood. make span bigger
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 9.9225e-06
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : zero-width neighborhood. make span bigger
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : zero-width neighborhood. make span bigger
## Warning: Computation failed in `stat_smooth()`:
## NA/NaN/Inf in foreign function call (arg 5)
Le même code que précédemment, avec cette fois le graphique à la place du message d’erreur.
ggplot(diam, aes(x = carat, y = price, color = clarity, shape = cut)) +
geom_point() + geom_smooth(se = FALSE)## `geom_smooth()` using method = 'loess'
Il est nécessaire de redistribuer le mapping plus subtilement.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point(aes(shape = cut)) +
geom_smooth(se = FALSE)## `geom_smooth()` using method = 'loess'
D’autres exemples concernant les attributs des éléments géométriques.
ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) +
geom_point()Il est possible évidemment de modifier plus subtilement la taille des sommets lorsqu’on fait un mapping dessus, si les valeurs par défaut ne nous plaisent pas.
En général, cela passe par les fonctions scale.
Elles commencent par scale_ (voir la cheat sheet).
Nous reviendrons plus en détail là-dessus.
Dans la figure suivante, nous donnons des valeurs minimales et maximales pour la taille des sommets.
ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) +
geom_point() +
scale_size(range = c(1,3))Remarque : l’effet est difficile à observer car la variance est très petite.
summary(diam$depth)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 54.20 61.08 61.90 61.75 62.50 68.90
sd(diam$depth)## [1] 1.407158
Au passage, remarquons que l’on peut aussi utiliser l’attribut size de geom_point sans mapping.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point(size = 1)Dans ce cas, la taille des points est considérée hors mapping et donc indépendamment d’une quelconque variable.
Remarquons également l’organisation hiérarchique des mappings et des transformations : dans l’exemple qui suit, la variable depth est tout d’abord mappée sur la taille des sommets.
Puis, dans geom_point, on lui attribue une valeur fixe.
Arrivée ensuite, c’est cette dernière qui l’emporte sur le mapping initial.
ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) +
geom_point(size = 1)Au passage, la modification du titre en légende dépend de la fonction scale correspondante (ici scale_size).
C’est logique, mais contre-intuitif pour qui aura passé beaucoup (trop ?) de temps avec les commandes graphiques de base dans R.
ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) +
geom_point() +
scale_size("DEPTH", range = c(1,3))Nous avons vu comment :
Charger les données.
Faire un mapping.
Superposer une ou plusieurs géométries.
Il nous reste à découvrir :
Le facettage.
Les échelles.
Les annotations.
Les types de graphiques autres que les scatterplots.
Comment sauver un graphique.
Comment bien préparer ses données.
Attention ! Ceci s’applique à des variables discrètes.
Le facettage divise le jeu de données en fonction des catégories d’une variable.
Dans un sens…
ggplot(diam, aes(x = carat, y = price)) +
geom_point() +
facet_grid(. ~ cut) … et dans l’autre.
(Remarquez la position inversée de la variable cut dans facet_grid().)
ggplot(diam, aes(x = carat, y = price)) +
geom_point() +
facet_grid(cut ~ .) En croisant deux variables discrètes.
ggplot(diam, aes(x = carat, y = price)) +
geom_point() +
facet_grid(color ~ clarity) Finalement, en croisant deux variables discrètes, avec un mapping sur la couleur.
ggplot(diam, aes(x = carat, y = price, color = cut)) +
geom_point() +
facet_grid(color ~ clarity) Il y a une autre option de facettage lorsqu’on n’utilise qu’une seule variable discrète : facet_wrap.
Dans ce cas, remarquez que nous n’utilisons plus le point (.) avant le tilde (~).
ggplot(diam, aes(x = carat, y = price)) +
geom_point() +
facet_wrap(~ clarity) Elles commencent toutes par scale_
Ensuite, on complète avec le nom de la variable concernée.
scale_alpha scale_alpha_continuous scale_alpha_discrete scale_alpha_identity scale_alpha_manual scale_color_brewer scale_color_continuous scale_color_discrete scale_color_distiller scale_color_gradient scale_color_gradient2 scale_color_gradientn scale_color_grey scale_color_hue scale_color_identity scale_color_manual scale_colour_brewer scale_colour_continuous scale_colour_date scale_colour_datetime scale_colour_discrete scale_colour_distiller scale_colour_gradient scale_colour_gradient2 scale_colour_gradientn scale_colour_grey scale_colour_hue scale_colour_identity scale_colour_manual scale_continuous scale_date scale_fill_brewer scale_fill_continuous scale_fill_date scale_fill_datetime scale_fill_discrete scale_fill_distiller scale_fill_gradient scale_fill_gradient2 scale_fill_gradientn scale_fill_grey scale_fill_hue scale_fill_identity scale_fill_manual scale_identity scale_linetype scale_linetype_continuous scale_linetype_discrete scale_linetype_identity scale_linetype_manual scale_manual scale_radius scale_shape scale_shape_continuous scale_shape_discrete scale_shape_identity scale_shape_manual scale_size scale_size_area scale_size_continuous scale_size_date scale_size_datetime scale_size_discrete scale_size_identity scale_size_manual scale_x_continuous scale_x_date scale_x_datetime scale_x_discrete scale_x_log10 scale_x_reverse scale_x_sqrt scale_y_continuous scale_y_date scale_y_datetime scale_y_discrete scale_y_log10 scale_y_reverse scale_y_sqrt
Par exemple, si l’on travaille sur la couleur, on pourra faire varier la palette des couleurs en modifiant le nom de l’échelle. Faites le test en écrivant scale_color_ dans la console puis en pressant sur la touche tab pour voir les suggestions…
En gris
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
scale_color_grey()La version par défaut.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
scale_color_discrete()ColorBrewer, nommée d’après une de ses auteurs, Cnythia Brewer, est une librairie de couleurs précalculées qui s’accordent bien.
On peut les utiliser ici avec la fonction scale_color_brewer.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
scale_color_brewer()En changeant de palette.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
scale_color_brewer(palette = 2)Attention si vous utilisez la mauvaise échelle : soit il ne se passera rien (comme dans la figure suivante), soit il y aura un message d’erreur.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
scale_fill_brewer(palette = 2)Dans la figure suivante, nous changeons la forme utilisée pour dessiner les points afin qu’il y ait un pourtour (color) et un contenu (fill).
Cette transformation a été effectuée en donnant comme instruction que les points doivent changer de forme (indépendamment de toute variable).
Nous en profitons pour dessiner l’intérieur. Quelle fonction faut-il utiliser ?
ggplot(diam, aes(x = carat, y = price, fill = clarity)) +
geom_point(shape = 21) +
scale_fill_brewer(palette = 2)Mais les échelles, ça ne concerne pas seulement l’intérieur du graphique.
Nous utilisons également des échelles sur les axes.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
scale_x_continuous(breaks = c(1,3), minor_breaks = c(sqrt(2), pi)) +
scale_y_continuous(breaks = sample(20000, 10))Échelle logarithmique FTW.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
scale_y_log10()Via un mapping, par exemple pour un MDS.
ggplot(diam, aes(x = carat, y = price, label = clarity)) +
geom_text()L’annotation manuelle est possible, à l’ancienne, mais pas forcément recommandée.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
annotate("text", x = 3.5, y = 10000, label = "HELLO")C’est la seule fois que nous voyons une transformation statistique dans cette présentation (malheureusement).
Ce sont les fonctions commençant par stat_.
Pour plus d’infos, voir la cheat sheet.
ggplot(diam, aes(price)) +
geom_area(stat = "bin")## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(diam, aes(price)) +
geom_density(kernel = "gaussian")ggplot(diam, aes(price)) +
geom_histogram(binwidth = 30)Avec une variable discrète, cette fois.
ggplot(diam, aes(color)) +
geom_bar()Une variable discrète et une variable continue.
ggplot(diam, aes(x = color, y = price)) +
geom_boxplot()Deux variables discrètes.
ggplot(diam, aes(x = cut, y = color)) +
geom_count()ggplot(diamonds, aes(x=price, fill=cut)) +
geom_histogram()## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Distributions bi-variées.
ggplot(diamonds, aes(carat, price)) +
geom_bin2d(binwidth = c(0.25, 500))ggplot(diamonds, aes(carat, price)) +
geom_hex()La fonction ggtitle est utilisée pour choisir un titre.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
ggtitle("Mon joli graphique")Et, classique pour une fois, xlab et ylab pour changer les noms des axes.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
xlab("Ma jolie abscisse") +
ylab("Ma jolie ordonnée")Pour varier les thèmes : theme_.
ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
theme_bw()ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
theme_dark()ggplot(diam, aes(x = carat, y = price, color = clarity)) +
geom_point() +
theme_minimal()ggsave## function (filename, plot = last_plot(), device = NULL, path = NULL,
## scale = 1, width = NA, height = NA, units = c("in", "cm",
## "mm"), dpi = 300, limitsize = TRUE, ...)
## {
## dev <- plot_dev(device, filename, dpi = dpi)
## dim <- plot_dim(c(width, height), scale = scale, units = units,
## limitsize = limitsize)
## if (!is.null(path)) {
## filename <- file.path(path, filename)
## }
## dev(file = filename, width = dim[1], height = dim[2], ...)
## on.exit(utils::capture.output(grDevices::dev.off()))
## grid.draw(plot)
## invisible()
## }
## <environment: namespace:ggplot2>
Par exemple
ggsave("plot.pdf", width = 7, height = 7)
«Tidy data is a standard way of mapping the meaning of a dataset to its structure.»
«A dataset is messy or tidy depending on how rows, columns and tables are matched up with observations, variables and types.»